OCR识别在档案数字化运用中的注意事项

发布时间:2019-01-05 阅读量:268

手写体档案的识别率普遍较低。不宜进行OCR识别。因此本文所述OCR的对象仅指印刷体档案。要提高OCR识别率。关键应注意以下几点:

  1.选择较好的OCR软件

  目前市场上比较流行的OCR软件很多,主要有清华文通、汉王、泰比等品牌。其中有些可以从网上下载免费版本但功能很少,识别率很低。只有在图像质量非常好的情况下才能达到较高的识别率,稍有差池便错误百出,毕竟一分价钱一分货。用在项目中还需谨慎再谨慎。还有的是扫描仪自带的OEM软件,如丹青、蒙恬等这样的软件往往功能较少,识别率较专业的OCR软件要低。所以,对于档案数字化过程中的批量OCR处理工作,若要用得省心、放心必须购买和使用专业的OCR软件。建议使用清华文通专业OCR软件,虽然要花点钱,但物有所值。

  2.设置合适的扫描参数

  档案数字化若要进行OCR处理,在前期扫描的时候就应设置适合OCR识别的扫描参数。如果已经扫描完毕再说要进行OCR处理,就应采用相关图像处理软件。如Photoshop等,先对图像的参数进行修改再OCR。合适的扫描参数能使图像质量更贴近于OCR识别的要求,OCR识别率自然会有很大程度的提高。

  ①分辨率的设定。分辨率太小,每英寸图像上像素点太少,OCR软件无法获得足够图像信息,识别率当然就不会高。但是,并不是分辨率越高,OCR识别率也越高。分辨率太高,特别是在使用一些存在轻微扫描失真的扫描仪时,由于纸张本身着墨不均匀,反而会把一些本应连着的笔画识别成几段,造成识别错误。不仅不能提高识别率,还会使图像文件变得很大,不利于存储、处理和传输。《纸质档案数字化技术规范》规定,需要进行OCR汉字识别的档案扫描分辨率建议选择200-300dpi最佳。

  但是在实际工作中,200dpi还是有点小,经验表明300dpiOCR识别中最为合适。有的扫描软件有一项“OCR扫描”直接将扫描分辨率锁定为300dpi2色彩模式的选择如果要进行OCR识别,采用黑白二值模式扫描的图像,其识别速度和正确率比灰度、24位真彩,C24模式扫描的图像都要高。这是因为文本通常只用到黑白二色,过多的颜色只会变成干扰信息。

  灰度模式在OCR中的应用也比较广泛。对于一些纸张发黄或文字字迹较淡的档案,要对扫描后的图像进行处理,第一步可将色彩模式设置为灰度,将图像划分为不同的灰度级别,然后通过特定算法将某个灰度值以下的像素点都认定为白色,其他为黑色从而达到黑白分明。一些纸张较薄甚至有点透明的档案,OCR会受到背面文字的干扰而识别率降低。如果扫描时在纸张背面垫一张黑纸,并使用灰度扫描,效果会好很多。而采用24位真彩,C24模式扫描的图像,由于颜色干扰信息太多,识别率往往不太理想。若要进行OCR,最好先转化为黑白二值或灰度模式再加以识别。

   ②亮度和对比度的调节

  档案由于年代久远,很多都会底色发黄、字迹变淡,扫描时设置灰度模式,并不能完全改善图像质量。若要进一步提高OCR识别率,需改变更多参数,即调节亮度和对比度,且应先调亮度再调对比度。亮度的设定以观察扫描后的图像中汉字的笔画较细但又不断开为原则。

  ③对于文字字迹。较浅、笔划较细的档案,可适当降低亮度,文字字体较小、笔划较粗的档案,可适当增加亮度。对于底色较深的档案,如前文所提灰度模式扫描的图像,可通过图像处理软件增加亮度,使图像背景变成白色,同时去除了一些原有的污点。但调节亮度的同时,必然会使图像中的文字一起变淡。这时便要增加图像对比度使文字的颜色变深。

  通过亮度和对比度的调节,可使图像变得更加黑白分明,从而有利于OCR识别率的提高。

  ④对图像进行纠偏、去污处理

  图像中文字的偏斜,会极大地降低OCR识别率,笔者曾经做过实验,一张只是略微有点歪的图像,其识别率比纠偏之后至少低了10%。而图像中的污点,也很有可能被OCR错误识别为文字。因此,在OCR识别前,图像必须经过纠偏、去污处理,以提高识别率。通常,档案扫描工作流程中必须具备图像纠偏、去污这一环节,而无论其是否要进行OCR

  ⑤仔细进行人工校对

  无论电脑有多聪明,始终比不过人脑。因此,人工校对是提高OCR识别率的最后一关,也是最直接的环节。通常,OCR软件识别完后会将原文用两行显示。一行是图像,另一行是识别结果。一些OCR软件。如文通OCR,会将不确定的文字用另一种颜色显示出来,便于用户发现错误。但实验表明,很多情况下没有变色的文字也会出错,相反变了色的文字并不一定是错的。因此,工作人员在校对时应仔细,最好能通读一遍,尤其注意字母和数字等较易出错的地方,尽量不放过任何错误。

  当然,人工校对是建立在OCR识别率本身就已很高的基础上的,它只是一个提高OCR识别率的补充环节。否则过多的人工校对只会降低档案数字化工作的效率使OCR变得与手工录入无异。

只有将OCR技术运用得恰到好处,才不至于浪费人力物力,才能使档案信息资源的利用价值达到最大化,更好地服务于民。

更多档案数字化设备详情咨询都吉福汇”,400-028-4366/028-85538251